在生成式AI出現後,接著浮現的就是一群「AI詠唱師」,或者又稱為「AI溝通師」、「AI指令(Prompt)生成師」。
在詢問AI時,不同的指令,生成結果可能會天差地遠,因此要如何有效率、有技巧的輸入指令,成為了一件值得研究的事情。
除了各種詠唱師、溝通師之外,還可以在網路上找到各種不同的題示詞大全,還有prompt商城,在賣特定的指令,豐富程度讓人咋舌。
而圖像生成領域也一樣,甚至比起文字方面,要注意的眉眉角角更多,圖片大小、風格、禁止詞等等的應有盡有,接下來今天的內容就來講講這些事情。
為什麼要用Tensor Art呢?在前一篇文章的介紹中,有稍微提到Tensor Art的特點,就是他既免費,自由度又高,對於每一項功能的解釋也挺詳細的。
所以使用他的話,其一,因為有較高的免費額度,一般沒接觸過的人上手程度比較低,想玩玩看的人看完文章介紹點點文章就能進去了,整體來說會比較方便;第二就是,因為自由度高,可以設置的功能多,放在這邊可以介紹的也比較多。
接下來我們會從註冊開始,一步一步走近AI繪圖的世界~
Tenser Art 官網
如果點擊這個連結,從這裡登入,你跟我都會得到額外的點數哦~
相信使用網路多年的各位,對各種網站的登入都不陌生,那我們這邊就不介紹了(喂
好啦,還是大概介紹一下,就如下圖,登入的途徑有三個:Google、Discord、一般Email,選擇任何一個方法登入後,就可以開始使用繪圖的功能了!
免費的帳號每天可以獲得100點的積分,如果是使用我上面的專屬連結進入的話,可以再多獲得接近100積分,如果只是要嘗試的話,相信這樣的額度足夠完好一陣子了。
點擊上方色彩鮮艷的「在線生圖」,就可以進到下列的畫面,接著我們先從左側紅框中最重要的模型和LoRA開始解釋起吧!
Tensor Art中可以讓使用者自行選擇想要使用的基底模型,其中有一些是官方提供,也有一些是網友自行上傳的。
目前主要的分類有SD系列、Pony、HunYuanDiT、Playground v2、PixArt、FLUX……等等。
SD(Stable Diffusion)系列
最初的SD(Stable Diffusion)是由Stability公司推出,經過這段時間的發展,光是系列,其中包含的各種模型就包羅萬象,有寫實、動漫、類3D模型,也有一些獸人(?)、國風水墨的模型,不同模型有不同的訓練偏重,生成出的圖片也就比較有特定範圍,可以依照需求去選擇。
Pony 系列
Pony類的模型則會比較偏向動漫畫風格,即使提示詞是偏向寫實真人,最後生出來的圖片也會帶一點點動漫的感覺,至於原因?別問,問就是開創者喜歡Little Pony這個動畫。
這是一個參照了SDXL架構的模型,所以基礎也是類似SD系列的,最大的特色除了偏向動漫風格外,對一些「特殊領域」禁詞的管控也比較沒那麼嚴格,許多在其他模型上生不出來的圖片他偏偏就可以做出來,有興趣的可以去試試看。
有一點可以注意,在逛網站時,會發現許多使用Pony模型生成圖片的提示詞中帶有score_5_up、score_9這種跟圖片內容好像沒有關係的prompt,這是什麼呢?
其實這跟這系列模型的開創者有關,他用好幾個月的時間,用肉眼去標籤了幾萬張圖片,讓電腦知道什麼叫做「好的」圖片,並對圖片進行了評分,所以那些score就代表你告訴電腦,我想要生成的圖片至少要達到哪個質量,從4~9分,可以自己去訂定。
HunYuanDiT 系列
又稱混元DiT模型,是騰訊開發出來的,Diffusion Transformer(DiT)架構的模型,整體相較於其他系列,對於中文的理解程度較高,因為訓練資廖的關係,也會比較偏向亞洲風格,在人種、建築方面都是。
PixArt 系列
這個系列的基底模型是由華維諾亞方舟實驗室開發的模型,當初推出時最大的賣點是相較於Stable Diffusion v1.5,這個模型只需要10%左右的訓練時間、1%的訓練成本,更難能可貴的是,在低成本的同時還能維持高質量、可兼容Control net。
FLUX 系列
這個系列是由Black Forest Labs開發並推行的,這間公司比較特別的是包含了SD源公司的員工。
在這系列模型中最特別的是,解決了人體解剖方面的問題--這不是說大家都在用AI學解剖哈--這主要是在說AI繪圖剛出現時最被大家嫌棄的部分,在手、肢體會有扭曲或多出一隻手指的問題。
光是模型的多樣性就介紹不完了,需要大家一個個去體驗,那我們接下來說說LoRA是什麼。
LoRA的全文是Low-Rank Adaption of LLMs,主要的用處是對大模型高校微調,原理是餵給他們相似風格的圖片,生成相似影像,檔案相對基礎模型也較小。
講簡單點,LoRA就像是對大模型出來的圖片另外套上了一個「圖層」,之後將兩者合併,最後生成的圖片就會局限在所使用LoRA的風格。所以在套上LoRA後,可以自己調LoRA的參數,越高表示和LoRA中風格結合的越多。
基礎模型只有一個,但可以搭配多個LoRA,Tensor Art中免費版最多可以套用3個LoRA,付費會員則可以套用到最多6個。
Control Net是一種增強技術,主要運用了Conditional Generative Adversarial Networks(條件生成對抗網路)的技術,透過引入額外的引導資料,比如圖像標記(annotation)、文字描述,在原先圖片生成的基礎上添加了「控制」的機制,讓使用者在生成圖片的時候可以讓模型更理解自己的需求,生成符合自己預期的內容。
可以控制的方面有下列幾種:
在LoRA下方可以看到有一個VAE的選項,VAE的全名是Variable Auto Encoder,就像是一個「濾鏡」,可以增進圖像的顏色,或是修復手部、面部的瑕疵。本身因為只對比較少的空間進行處理,所以花費的時間會比較小。
在設置的地方可以自己調生成出圖片的長寬、大小、形狀等等,免費版的上限是1536x1024。
而其中的採樣、隨機種子等等又是讓人不好理解的參數,這邊就來介紹介紹。
採樣器
其實採樣器在前一天我們就有談到,我們昨天有說,SD模型在生成圖像時,會先產生充滿雜訊的圖片,再透過採樣器(Sampler)和解碼器(Encoder)來去除,這邊我們要說的就是採樣器。
其中DPM生成出的圖片品質更好,而Euler、DDIM生成的速度則更快,這些是網站上給的資料,可以依照自己的需求去評斷要選擇哪一種方式。當然如果去Tensor art內看,會發現可以選的模型類別根本不只這三種,而是多到又讓人頭昏昏。
SD學習筆記| Sampler全攻略- 採樣器要怎樣選擇?這個網站的作者有統整出一些採樣器的優缺點,有興趣的可以去逛逛,這邊就不再細講。
採樣次數
生成圖片時的迭代次數,次數越高圖片的畫面效果會更好,但也會花比較多的時間。基本上建議用20~30,免費版本可以使用的最高上限是25,付費板可以調高到60。
提示詞相關性(CFG Scale)
如字面意思,調的越高越接近提示詞的描述,低的話則會有更多創意的想法出現。
隨機種子是圖像生成器在生成圖片時排列隨機序列的數值,是非常重要的一個數值。這個數值可以保證「可重複性」,也就是說,再參數都一樣的情況下,只要輸入相同的隨機種子數值,就可以生成出同樣的圖片。
大家都知道,在網路上很多人都會公布出自己下的指令,但是試過的人也都了解,即使提示詞一模一樣,生成出來的圖片也會不一樣,隨機種子就是保障生成同樣圖片功能的數值。
但有些人可能會發現,明明我點選和其他人用一樣的隨機種子,為什麼生出來的圖片還是不一樣?這就要來講一下ENSD了。
中文翻譯是eta噪聲種子增量,會隨機微調改變SEED,任何非0整數都會產生效果,這也就導致即使隨機種子相同,生成圖片還是不同的情況發生。
這種時候就要點一下隨機種子下的「高級設置」,把ENSD的數值調整到0,就沒問題啦~
簡單來說,就是將生成的圖片變大並維持相同的樣貌。和圖片大小一樣,免費使用的上限是1536x1024,要購買專業版才能變高。
高清修復採樣次數
採樣次數同樣是限制在25,不過網站也有提醒,在參數大於30後,效果有明顯下降。
重繪噪聲強度
從0~1,網站給出的建議是0.3,跟採樣次數會有相關,可以看看AI繪畫高清修復測試網站的測試,總結來說「當採樣次數極小(1,3,5),且重繪幅度高(大於0.7)時,畫面會重回雜訊模式,無法出圖;在測試表右下角,當重繪幅度大於0.7時,畫面會出現變化,與原圖不符」、「比較適合的參數:重繪幅度0.4—0.6,採樣次數20—50」
修復方式
不同的修復算法,也各自有著不同的效果:
依據網站所說4x-UltraSharp擅長處理寫實圖像,R-ESRGAN 4x+ Anime6B擅長動畫圖像。
至於其他的算法,部分參考了AI繪畫高清修復測試這個網站的測試,列出大概效果,實際效果當然還是要各位親自去嘗試:
ADetailer主要是針對臉、手部、肢體等畸形的狀況作修復的模型,他厲害的地方是可以自動去辨別人臉和肢體,並準確地進行局部校正。
除了修復的功能,他還可以做到其他比如改變表情、年齡、種族(不限於人類?)、僅將LoRA作用於臉部等等,解決了SD基礎模型中會發生畸型的問題。
模型選擇
在模型的部分有三種選擇:臉、手、全身,可以依據自己的需求去選擇。
其中有Yolo、Meduapipe兩大類別,其中:
提示詞 & LoRA
前面有說可以重繪表情或年齡之類,所以可以自行輸入提示詞或反提示詞,並且可以自行添加LoRA,最多只能用兩個。
置信度
網站給出的解釋是「控制模型檢測結果的可信度,增大數值可獲得更高的修復準確度,降低數值可增大修復範圍」,嗯……有點難理解。
但其實講人化的話就是,數值越高檢測的標準越高,有時候即使是臉也檢測不出來,數值越低標準則越低,有時候不是臉也會被檢測成臉(想想還挺可怕的)。
基本上可以設置在0.3。
重繪模板模糊
邊緣羽化強度,數值越小越銳利。太大或太小,重新生出來的圖片修復過的地方都會格格不入。
重繪噪聲模糊
僅限於產生不同的面部特徵,推薦0.4-0.6。
相信各位今天聽到這裡,已經對AI繪圖有更多的理解了對吧!
那就快去Tensor Art或其他的應用(可參考Day5 AI圖像生成-各家比較:從Midjourney到Tensor Art)試試手吧,有發現什麼有趣的事物歡迎在留言區分享,和大家交流哦!